#inferencia eficiente

Selección Dinámica de Tokens de Pensamiento para Razonamiento Eficiente

DynTS selecciona solo tokens clave en modelos de razonamiento grandes para reducir memoria y acelerar inferencia, manteniendo precisión. Optimiza eficiencia computacional.

2026-06-05 · 2 min

Redondeo Adaptativo que Preserva el Modelo

Descubre YAQA: algoritmo de redondeo adaptativo que reduce el error de cuantización un 30% frente a GPTQ. Cotas de error garantizadas sin coste de inferencia.

2026-06-04 · 1 min

MesaNet: Entrenamiento Localmente Óptimo en Tiempo de Prueba

MesaNet optimiza el entrenamiento en tiempo de prueba para mejorar el rendimiento en secuencias largas. Menor perplejidad y mayor eficiencia.

2026-06-04 · 2 min

Cuantificación multi-dominio y cola larga: alineación y escalado

Descubre EmaQ y EmaQ-LT: cuantificación precisa para redes neuronales con dominios múltiples y desbalance, mejorando la eficiencia en dispositivos limitados.

2026-06-04 · 2 min

Cuando la atención colapsa: poda de tokens visuales de estructura a semántica

Descubre cómo el marco STS evita el colapso de atención en VLMs, mejorando la diversidad estructural y la relevancia semántica de tokens visuales.

2026-06-03 · 2 min

RRISE: Inferencia Robusta de Radio mediante un Estimador Sustituto

¿Quieres certificar robustez en IA sin el coste del muestreo Monte Carlo? RRISE logra precisión comparable con solo un pase de red.

2026-06-03 · 3 min

Float8@2bits: compresión de modelos sin datos vía codificación de entropía

EntQuant comprime modelos de 70B parámetros en solo 10 minutos sin datos de calibración, alcanzando SOTA en compresión extrema a 2 bits con codificación de entropía.

2026-06-03 · 1 min

SALAAD: Adaptación dispersa y de bajo rango con ADMM para inferencia de LLM

Descubre cómo SALAAD reduce el consumo de memoria en modelos de lenguaje grandes usando estructuras dispersas y de bajo rango, permitiendo un despliegue flexible sin reentrenamiento.

2026-06-03 · 3 min

Modelos de Lenguaje Esotéricos: LLMs de Difusión de Cualquier Orden

Eso-LMs: modelos de lenguaje que combinan AR y MDM con atención causal y caché KV, permitiendo generación paralela e inferencia eficiente. Nuevo estado del arte.

2026-06-03 · 2 min

Colaboración latente en sistemas multi-agente

Descubre cómo LatentMAS permite a agentes LLM colaborar directamente en el espacio latente, mejorando precisión hasta 14.6% y acelerando inferencia 4x sin necesidad de texto. Código abierto.

2026-06-02 · 2 min

CRAFT: Replicación eficiente de expertos en Mixture-of-Experts

Descubre CRAFT, un marco que replica expertos con granularidad fina para mejorar el rendimiento de modelos MoE hasta un 20% sin modificar el modelo.

2026-06-02 · 3 min

Parada Bayesiana Óptima para Respuestas Consistentes de LLMs

Descubre cómo la parada bayesiana óptima permite obtener respuestas consistentes de LLM usando menos muestras, ahorrando hasta un 50% en costos de inferencia.

2026-06-02 · 4 min

DyLLM: Inferencia Eficiente de LLMs de Difusión mediante Token Saliente

Descubre DyLLM, un marco de inferencia sin entrenamiento que acelera hasta 9.6x los LLMs de difusión seleccionando solo tokens relevantes. Ideal para razonamiento y código.

2026-06-02 · 2 min

Soft-NBCE: Fusión de fragmentos ponderada por entropía para contextos largos

Soft-NBCE optimiza la inferencia de LLMs en contextos largos: fusión de fragmentos con pesos de entropía y destilación de consistencia para mayor precisión en razonamiento multi-salto.

2026-06-02 · 2 min

MURMUR: Sistema eficiente de inferencia para ASR de larga duración

Murmur: sistema de inferencia para ASR de larga duración que reduce la latencia 4.2x sin degradar la precisión. Atención dispersa y evicción de caché KV.

2026-06-02 · 3 min

ProbeScale: Análisis de Sondas para Optimizar Leyes de Escalado en SLMs

Descubre cómo ProbeScale optimiza SLMs mediante análisis de sondas, seleccionando subredes que reducen hasta 10 veces los parámetros sin perder rendimiento.

2026-06-02 · 2 min

Zamba2-VL: Modelos de visión-lenguaje híbridos eficientes

Descubre Zamba2-VL, modelos de visión-lenguaje basados en Mamba2 que ofrecen rendimiento competitivo con un orden de magnitud menor en tiempo de respuesta. Ideal para edge.

2026-06-02 · 1 min

BlockBatch: Decodificación de Consenso Multi-Escala para Inferencia Eficiente de Modelos de Lenguaje de Difusión

2026-05-30 · 2 min

AsymVLM: Poda Asimétrica de Tokens para Inferencia Eficiente de Modelos de Visión y Lenguaje

Poda asimétrica de tokens para inferencia eficiente en VLM. Acelera modelos de visión-lenguaje sin sacrificar precisión. Técnica optimizada.

2026-05-29 · 2 min